智能论文笔记

Video Vision Transformers for Violence Detection

Sanskar Singh , Shivaibhav Dewangan , Ghanta Sai Krishna , Vandit Tyagi , Sainath Reddy

分类：计算机视觉 | 人工智能

2022-09-08

执法和城市安全受到监视系统中的暴力事件的严重影响。尽管现代（智能）相机广泛可用且负担得起，但在大多数情况下，这种技术解决方案无能为力。此外，监测CCTV记录的人员经常显示出迟来的反应，从而导致对人和财产的灾难。因此，对迅速行动的暴力自动检测至关重要。拟议的解决方案使用了一种新颖的端到端深度学习视频视觉变压器（Vivit），可以在视频序列中熟练地辨别战斗，敌对运动和暴力事件。该研究提出了利用数据增强策略来克服较弱的电感偏见的缺点，同时在较小的培训数据集中训练视觉变压器。评估的结果随后可以发送给当地有关当局，可以分析捕获的视频。与最先进的（SOTA）相比，所提出的方法在某些具有挑战性的基准数据集上实现了吉祥的性能。

translated by 谷歌翻译

Vision Transformers and YoloV5 based Driver Drowsiness Detection Framework

Ghanta Sai Krishna , Kundrapu Supriya , Jai Vardhan , Mallikharjuna Rao K

分类：计算机视觉

2022-09-03

由于独特的驾驶特征，人类驾驶员具有独特的驾驶技术，知识和情感。驾驶员嗜睡一直是一个严重的问题，危害道路安全。因此，必须设计有效的嗜睡检测算法以绕过道路事故。杂项研究工作已经解决了检测异常的人类驾驶员行为的问题，以通过计算机视觉技术检查驾驶员和汽车动力学的正面面孔。尽管如此，常规方法仍无法捕获复杂的驾驶员行为特征。但是，以深度学习体系结构的起源，还进行了大量研究，以分析和识别使用神经网络算法的驾驶员的嗜睡。本文介绍了一个基于视觉变形金刚和Yolov5架构的新颖框架，以实现驾驶员嗜睡的识别。提出了定制的Yolov5预训练的结构，以提取面部提取，目的是提取感兴趣的区域（ROI）。由于以前的体系结构的局限性，本文引入了视觉变压器进行二进制图像分类，该二进制图像分类在公共数据集UTA-RLDD上经过训练和验证。该模型分别达到了96.2 \％和97.4 \％的培训和验证精度。为了进行进一步的评估，在各种光明情况下的39名参与者的自定义数据集上测试了拟议的框架，并获得了95.5 \％的准确性。进行的实验揭示了我们在智能运输系统中实用应用框架的重要潜力。

translated by 谷歌翻译

Epersist: A Self Balancing Robot Using PID Controller And Deep Reinforcement Learning

Ghanta Sai Krishna , Dyavat Sumith , Garika Akshay

分类：机器人 | 人工智能

2022-07-23

两轮自动平衡机器人是逆摆的一个示例，是一种固有的非线性，不稳定的系统。提出的框架“主持人”的基本概念是克服通过提供强大的控制机制，比例积分衍生物（PID）和强化学习（RL）来克服最初不稳定系统的挑战。此外，雌激素中的微控制器Nodemcuesp32和惯性传感器采用较少的计算过程，以提供有关车轮旋转到电动机驱动器的准确指导，这有助于控制车轮并平衡机器人。该框架还包括PID控制器的数学模型和新型的自训练的Actor-Critic-Critic算法作为RL药物。经过多次实验，对控制可变校准作为基准值，以达到静态平衡的角度。这个“主流”框架提出了PID和RL辅助功能原型和模拟，以更好地实用。

translated by 谷歌翻译

Deep Learning-Based Vehicle Speed Prediction for Ecological Adaptive Cruise Control in Urban and Highway Scenarios

Sai Krishna Chada , Daniel Görges , Achim Ebert , Roman Teutsch

分类：机器学习

2022-11-30

In a typical car-following scenario, target vehicle speed fluctuations act as an external disturbance to the host vehicle and in turn affect its energy consumption. To control a host vehicle in an energy-efficient manner using model predictive control (MPC), and moreover, enhance the performance of an ecological adaptive cruise control (EACC) strategy, forecasting the future velocities of a target vehicle is essential. For this purpose, a deep recurrent neural network-based vehicle speed prediction using long-short term memory (LSTM) and gated recurrent units (GRU) is studied in this work. Besides these, the physics-based constant velocity (CV) and constant acceleration (CA) models are discussed. The sequential time series data for training (e.g. speed trajectories of the target and its preceding vehicles obtained through vehicle-to-vehicle (V2V) communication, road speed limits, traffic light current and future phases collected using vehicle-to-infrastructure (V2I) communication) is gathered from both urban and highway networks created in the microscopic traffic simulator SUMO. The proposed speed prediction models are evaluated for long-term predictions (up to 10 s) of target vehicle future velocities. Moreover, the results revealed that the LSTM-based speed predictor outperformed other models in terms of achieving better prediction accuracy on unseen test datasets, and thereby showcasing better generalization ability. Furthermore, the performance of EACC-equipped host car on the predicted velocities is evaluated, and its energy-saving benefits for different prediction horizons are presented.

translated by 谷歌翻译

A Survey on Conversational Search and Applications in Biomedicine

Naga Sai Krishna Adatrao , Gowtham Reddy Gadireddy , Jiho Noh

分类：自然语言处理

2022-11-28

This paper aims to provide a radical rundown on Conversation Search (ConvSearch), an approach to enhance the information retrieval method where users engage in a dialogue for the information-seeking tasks. In this survey, we predominantly focused on the human interactive characteristics of the ConvSearch systems, highlighting the operations of the action modules, likely the Retrieval system, Question-Answering, and Recommender system. We labeled various ConvSearch research problems in knowledge bases, natural language processing, and dialogue management systems along with the action modules. We further categorized the framework to ConvSearch and the application is directed toward biomedical and healthcare fields for the utilization of clinical social technology. Finally, we conclude by talking through the challenges and issues of ConvSearch, particularly in Bio-Medicine. Our main aim is to provide an integrated and unified vision of the ConvSearch components from different fields, which benefit the information-seeking process in healthcare systems.

translated by 谷歌翻译

ACLNet: An Attention and Clustering-based Cloud Segmentation Network

Dhruv Makwana , Subhrajit Nag , Onkar Susladkar , Gayatri Deshmukh , Sai Chandra Teja R , Sparsh Mittal , C Krishna Mohan

分类：计算机视觉 | 人工智能

2022-07-13

我们提出了一种名为ACLNET的新型深度学习模型，用于从地面图像中分割云。ACLNET同时使用深神经网络和机器学习（ML）算法来提取互补功能。具体而言，它使用有效网络-B0作为骨干，“``trous tos blacial pyramid boming''（ASPP）在多个接受场上学习，并从图像中提取细节细节。ACLNET还使用K-均值聚类来更精确地提取云边界。ACLNET对白天和夜间图像都有效。它提供的错误率较低，较高的召回率和更高的F1得分比Art最先进的云分割模型。ACLNET的源代码可在此处获得：https：//github.com/ckmvigil/aclnet。

translated by 谷歌翻译

WaferSegClassNet -- A Light-weight Network for Classification and Segmentation of Semiconductor Wafer Defects

Subhrajit Nag , Dhruv Makwana , Sai Chandra Teja R , Sparsh Mittal , C Krishna Mohan

分类：计算机视觉 | 机器学习

2022-07-03

随着半导体晶片的整合密度和设计的复杂性的增加，它们中缺陷的幅度和复杂性也在上升。由于对晶圆缺陷的手动检查是昂贵的，因此高度需要基于自动的人工智能（AI）计算机视觉方法。先前关于缺陷分析的作品具有多个局限性，例如准确性低以及对分类和分割的单独模型的需求。为了分析混合型缺陷，一些以前的作品需要为每种缺陷类型分别训练一个模型，这是不可估计的。在本文中，我们介绍了基于编码器架构的新型网络WafersegClassnet（WSCN）。 WSCN执行单个和混合型晶圆缺陷的同时分类和分割。 WSCN使用“共享编码器”进行分类和细分，允许训练WSCN端到端。我们使用N-PAIR对比度损失首先预处理编码器，然后使用BCE-DICE损失进行分割，并进行分类的分类横向损失。使用N-PAIR对比度损失有助于更好地嵌入晶圆图的潜在维度。 WSCN的模型大小仅为0.51MB，仅执行0.2m的拖鞋。因此，它比其他最先进的型号轻得多。同样，它仅需要150个时期才能收敛，而先前的工作需要4,000个时代。我们在具有38,015张图像的混合WM38数据集上评估了我们的模型。 WSCN的平均分类精度为98.2％，骰子系数为0.9999。我们是第一个在混合WM38数据集上显示分割结果的人。可以从https://github.com/ckmvigil/wafersegclassnet获得源代码。

translated by 谷歌翻译

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Kaustubh D. Dhole , Varun Gangal , Sebastian Gehrmann , Aadesh Gupta , Zhenhao Li , Saad Mahamood , Abinaya Mahendiran , Simon Mille , Ashish Srivastava , Samson Tan

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-06

数据增强是自然语言处理（NLP）模型的鲁棒性评估的重要组成部分，以及增强他们培训的数据的多样性。在本文中，我们呈现NL-Cogmenter，这是一种新的参与式Python的自然语言增强框架，它支持创建两个转换（对数据的修改）和过滤器（根据特定功能的数据拆分）。我们描述了框架和初始的117个变换和23个过滤器，用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构，Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用（\ url {https://github.com/gem-benchmark/nl-augmenter}）。

translated by 谷歌翻译

Gated Linear Model induced U-net for surrogate modeling and uncertainty quantification

Sai Krishna Mendu , Souvik Chakraborty

分类： (统计)机器学习 | 机器学习

2021-11-08

我们提出了一种基于深度学习的代理模型，用于解决高维不确定性量化和不确定性传播问题。通过将众所周知的U-Net架构与高斯门控线性网络（GGLN）集成并称为所界线线性网络引起的U-Net或Glu-Net，通过将众所周知的U-Net架构进行了开发了建议的深度学习架构。所提出的Glu-Net将不确定性传播问题视为图像回归的图像，因此是极其数据效率。此外，它还提供了预测性不确定性的估计。 Glu-Net的网络架构不太复杂，参数比当代作品较少44 \％。我们说明了所提议的Glu-net在稀疏数据场景下在不确定性下解决达西流动问题的表现。我们认为随机输入维度最高可达4225.使用香草蒙特卡罗模拟产生基准结果。即使没有关于输入的结构的信息提供对网络的结构的信息，我们也观察到所提出的Glu-Net是准确的，非常有效。通过改变训练样本大小和随机输入维度来进行案例研究以说明所提出的方法的稳健性。

translated by 谷歌翻译

Switch Point biased Self-Training: Re-purposing Pretrained Models for Code-Switching

Parul Chopra , Sai Krishna Rallabandi , Alan W Black , Khyathi Raghavi Chandu

分类：自然语言处理

2021-11-01

代码切换（CS），普遍存在的现象，由于在多语种社区中提供的易于通信，仍然是语言处理中的被解读的问题。其背后的主要原因是：（1）利用大型预磨削多语言模型的最小努力，（2）缺乏注释数据。 CS中多语种模型性能低性能的区别案例是导致切换点的语言中的句子内混合。我们首先将两个序列标记任务 - 在4个不同的语言对中，带有套件的预磨料模型，以识别问题，然后选择最佳的执行模型，CHAR-BERT，其中（寻址（1））。然后，我们提出了一种自我训练方法，通过利用未解释的数据（寻址（2））来利用开关点偏置来重新利用开关点偏压来重新利用开关点偏置。我们终于证明我们的方法通过降低切换点性能之间的差距来对两个任务进行良好的，同时保留两种不同语言对中的两个不同语言对。我们的代码可在此处提供：https://github.com/pc09/emnlp2021-switch-point-biased.caString。

translated by 谷歌翻译